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摘要 : 【 目的 ] 通过 采用 语义 识别 、 知 识 关系 计算 等 方法 提升 科技 文献 检索 系统 的 服务 功能 和 效果 , 使 之 能 够 呈 
现 更 加 丰富 的 知识 化 语义 信息 , 将 更 多 的 知识 点 和 知识 关系 展现 给 用 户 。[ 方法 ] 应 用 数据 挖掘 和 关系 计算 工具 ， 
深度 识别 和 抽取 科技 文献 中 的 语义 知识 ,分析 、 计 算 、 构 建 语义 关系 , 并 将 得 到 的 语义 知识 和 语义 关系 建立 多 维 
语义 索引 树 , 设计 新 的 数据 组 织 呈 现 模型 。【 结果 ] 研发 语义 丰富 化 检索 示范 系统 , 在 科技 文献 检索 应 用 过 程 中 
充分 揭示 语义 信息 ,丰富 检索 体验 。[ 局 限 ] 选取 的 试验 数据 集合 不 够 充足 ,缺少 其 他 领域 应 用 对 比 。[ 结论 ] 本 
文 模型 设计 给 用 户 带 来 更 多 的 知识 层面 的 关联 、 揭 示 和 导航 ,提升 了 检索 系统 体验 。 同 时 分 析 了 设计 模型 的 不 
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足 之 处 , 探索 改进 方法 。 
关键 词 : 语义 丰富 化 ”语义 知识 组 织 
分 类 号 : TP391 


语义 关系 呈现 ”多 维 索引 


1 引言 


随 着 语义 技术 、 知 识 图 谱 和 本 体 技术 的 迅速 发 展 
和 在 科技 文献 中 的 应 用 ,如 何 发 掘 揭示 科技 文献 之 间 
的 语义 关系 ,充分 利用 知识 和 体现 知识 价值 ， 是 当今 
科技 文献 检索 关注 的 重点 。 人 们 不 再 满足 原 有 “关键 词 
+ 检索 列表 ”模式 的 检索 系统 ,而 希望 通过 语义 途径 检 
索 发 现 科 技 文献 ， 在 科技 文献 的 检索 系统 中 呈现 知识 
点 和 知识 关系 等 更 加 丰富 的 内 容 。 语 义 丰 富 化 框架 的 
设计 目标 是 改进 现 有 单一 关键 词 导 向 的 检索 系统 , 将 
多 种 类 型 的 语义 知识 上 ,知识 之 间 丰 富 的 关联 关系 等 
深层 信息 , 利用 数据 挖掘 与 呈现 技术 重新 组 织 , 在 科 
技 文献 检索 过 程 中 充分 揭示 出 来 。 


2 语义 丰富 化 现状 分 析 及 研究 意 X 


当前 基于 知识 图 谱 外 的 语义 搜索 引擎 ,如 Google 


Knowledge Grapht, 利用 知识 图 谱 改 进 传统 搜索 引擎 
的 呈现 方式 ， 分 析 用 户 输入 生成 关联 的 百科 知识 , 辅 
助 组 织 多 类 型 语义 知识 及 多 媒体 展现 , 很 大 程度 提升 
了 用 户 检 索 体 验 。 知 名 的 WolframAlpha 和 KngineD 
智能 语义 搜索 引擎 , 更 是 将 语义 搜索 展现 为 一 种 智能 
知识 问答 方式 。 在 强大 的 百科 知识 库 和 知识 图 谱 支 持 
基础 上 , 对 用 户 输入 问题 智能 解析 、 搜 索 并 给 出 相关 
的 答案 。 

知识 图 谱 的 搜索 引擎 仅 对 用 户 输入 进行 语义 丰富 
化 , 揭示 知识 图 谱 中 的 既 有 知识 , 不 能 发 现 科技 文献 本 
身 潜在 的 知识 ,在 文献 发 现 过 程 中 依然 采用 传统 检索 染 
构 , 使 用 列表 方式 呈现 相关 文献 。 而 SindiceTech" 平 台 
的 研究 应 用 , 实现 了 对 文本 数据 的 深度 拆 解 、 语 义 关 
系 计算 等 智能 方法 , 将 海量 文本 数据 全 部 用 RDF 三 元 
组 [方式 表示 ,以 发 现 文本 中 潜在 知识 为 向 导 , 形成 


通讯 作者 : 吴 振 新 ，ORCID: 0000-0003-4966-1961, E-mail: wuzx@mail.las.ac.cn。 
* 本 文系 中 国 科学 院 文献 情报 能 力 建 设 专项 “基于 大 数据 计算 的 资源 发 现 平台 建设 ”( 项 目 编号 : 院 1676) 和 国家 社会 科学 基金 青年 


项 目 “ 基 于 关联 数据 的 学 术 资 源深 度 挖掘 方法 研究 ”( 项 目 编号 : 15CTQ006) 的 研究 成 果 之 一 。 


数据 分 析 与 知识 发 现 


FreeBasels] 关 联 知识 库 ,' 开创 了 三 元 组 搜索 展示 数据 
的 先例 。 这 种 深度 知识 关系 揭示 方法 对 发 现 原始 文本 
内 部 的 潜在 知识 关系 具有 重要 意义 。 

由 于 SindiceTech 平台 面向 互联 网 广泛 领域 的 数 
据 采 集 、 组 织 , 没有 针对 特定 科研 领域 的 实体 名 称 和 
关系 进行 规范 和 控制 , 检索 产生 较 多 噪声 数据 ,影响 
了 语义 关系 检索 的 效果 , 因此 没有 在 科技 文献 检索 中 
应 用 。 本 文 设计 思路 综合 了 知识 图 谱 检 索 和 三 元 组 数 
据 组 织 发 现 两 种 方式 , 充分 利用 专业 领域 知识 , 并 在 
科技 文献 深度 标注 和 知识 关系 计算 的 基础 上 , 对 文献 
中 出 现 的 知识 和 关系 进行 规范 。 综 合 以 上 平台 的 设计 
思路 , 设计 语义 丰富 化 呈现 模型 。 利 用 Apache Solr” 
分 面 机 制 设计 多 维 索引 ， 充 分 发 掘 揭示 既 有 语义 关系 
和 潜在 语义 关联 ， 从 而 在 用 户 输入 端 和 检索 过 程 中 提 
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升 语义 丰富 化 检索 体验 。 

为 体现 科研 领域 主题 范围 内 的 语义 丰富 化 效果 ， 
本 文 的 试验 选择 PubMedi 的 医学 领域 的 Migraine 
Disorder、Heart Diseases 这 两 个 主题 近 两 年 内 的 文章 
集合 作为 示范 系统 的 试验 数据 集 , 采用 医学 领域 数据 
挖掘 计算 较为 成 熟 的 SemRept J 和 ClausIEt 作为 基础 
数据 挖 气 分 析 工 具 , 研发 了 检索 示范 系统 以 探索 科技 
文献 检索 的 语义 丰富 化 的 效果 。 

3 ”语义 丰富 化 的 总 体 架构 设计 

如 图 1 所 示 , 科技 文献 检索 系统 语义 丰富 化 的 总 
体 架构 设计 分 为 语义 计算 和 语义 索引 两 个 部 分 。 语义 
计算 面向 知识 的 挖掘 与 组 织 , 语义 索引 面向 知识 的 揭 
示 与 应 用 。 
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图 1 语义 丰富 化 总 体 设计 框架 


3.1 语义 计算 

文本 中 包含 的 具有 语义 价值 的 术语 和 实体 , 本文 
统称 为 知识 对 象 扩 .语义 计算 工作 首先 标识 出 文献 的 关 
键 词 ， 并 识别 出 它 所 属 的 类 型 ( 即 它 是 什么 ), 即 得 到 本 
文 需要 的 知识 对 象 ; 其 次 计算 出 各 个 知识 对 象 之 间 的 关 
联 关系 -如 图 1 上 部 分 所 示 , 语义 计算 包括 : 文献 线索 标 
引 、 内 容 语义 标 引 、 语 义 关系 抽取 、 句 法 关系 抽取 。 

(1) 文献 线索 标 引 : 主要 包括 对 文献 基础 描述 元 
数据 的 加 工 、 标 引 。 根 据 文 献 提 供 的 结构 化 摘要 文本 ， 
切 分 研究 目的 、 研 究 方法 、 研 究 工 具 、 研 究 结果 等 结 
构 化 摘要 ,并 实现 句子 切 分 预 处 理 ， 以 支持 后 续 知识 


对 象 关系 抽取 。 

(2) 内 容 语 义 标 引 : 实现 文本 内 容 中 具有 语义 价 
值 的 术语 和 实体 的 标 引 , 通过 内 容 标 引 过 程 得 到 试验 
需要 的 知识 对 象 。 

(3) 语义 关系 抽取 : 根据 同一 个 句子 中 计算 标 引 
得 到 的 知识 对 象 , 在 UMLS04 和 STKOS 科技 知识 组 
织 体系 开放 引擎 六 中 查询 每 两 个 知识 对 象 可 能 存在 的 
语义 关系 [94, 并 将 语义 关系 记录 为 S-P-O 三 元 组 "1。 

(4) 句法 关系 抽取 : 使 用 自然 语言 处 理 方法 计算 
句法 关系 "将 长 名 拆 分 成 短 句 和 子 句 ,并 在 短 句 中 
计算 出 主 谓 宾 关 系 , 将 主 谓 宾 关 系 以 S-P-O 三 元 组 的 
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方式 记录 。 一 个 长 句子 可 以 拆 分 、 记 录 为 多 个 S-P-O 
三 元 组 。 
3.2 语义 索引 

语义 索引 工作 将 语义 计算 后 得 到 的 文献 线索 、 文 
本 内 容 、 知 识 对 象 、 对 象 关系 等 不 同 维度 的 数据 , 构 
建 多 维度 的 语义 索引 体系 , 将 各 个 维度 数据 有 机 组 织 
起 来 , 便于 语义 丰富 化 检索 系统 揭示 应 用 。 如 图 1 下 
半 部 分 所 示 , 语义 索引 分 为 三 个 部 分 : 

(1) 文献 索引 : 对 文章 的 基本 描述 元 数据 进行 索 
引 、 文 本 切 分 后 的 句子 片段 索引 , 保障 文章 与 所 属 句 
子 片段 的 映射 关系 , 用 于 文献 元 数据 查询 浏览 和 文本 
片段 组 织 呈 现 。 

(2) 知识 对 象 索引 : 用 于 对 知识 对 象 的 检索 查询 
和 分 类 展示 , 识别 并 规范 用 户 输入 关键 词 。 并 将 知识 
对 象 与 文献 文本 组 织 关 联 , 用 于 定位 知识 对 象 存在 于 
某 篇 文献 和 具体 某 个 句子 之 中 。 


(3) 知识 关系 索引 : 语义 标 引 工作 得 到 语义 、 句 法 
两 种 关系 , 文本 索引 将 这 两 种 关系 合并 统称 为 知识 关 
系 , 它们 均 以 S-P-O 三 元 组 的 方式 表达 。 知 识 关 系 索 
引 以 三 元 组 为 基础 构建 , 实现 知识 关联 导航 和 潜在 知 
识 关系 发 现 。 


4 语义 计算 框架 


语义 计算 框架 工作 流程 如 图 2 所 示 , 参照 MeSH 
主题 词 表 咏 ] 将 医学 领域 知识 对 象 划分 为 16 个 一 级 大 
类 、134 个 二 级 分 类 中 和 30 种 谓词 语义 关系 (根据 
NLM 每 年 更 新 , 分 类 和 关系 的 数目 、 结 构 有 所 变动 )， 
选取 医学 领域 文献 的 标题 和 摘要 文本 数据 作为 试验 素 
材 , 使 用 SemRep 和 MetaMapt" "工具 对 试验 文本 数据 
中 的 重要 知识 对 象 进行 标 引 抽取 。 使 用 MetaMap 和 
ClausIE 工具 实现 对 试验 文本 数据 中 的 语义 关系 计算 
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图 2 语义 标 引 流程 


4.1 内 容 语义 标 引 

(1) 文献 内 容 的 语义 标 引 

通过 StanfordTagger!” J 和 ClausIE 句法 解析 工具 对 
20 万 条 科技 文献 进行 分 句 等 预 处 理 ; 利用 dTagger 
对 预 处 理 后 的 科技 文献 进行 词性 标注 ; 通过 美国 国立 
医学 图 书馆 基于 UMLS 超级 叙 词 表 开 发 的 MetaMap 
工具 将 句子 拆 分 成 具有 意义 的 短语 片段 。 如 对 标题 
“Effectiveness of behavioural management on migraine 


in adult patients visiting family practice clinics: a 
randomized controlled trial” 处 理 ， 可 得 到 A-E，5 个 短 


语 , 具体 标 引 示例 如 图 3 所 示 。 


节 强 数据 分 析 与 知识 发 现 


未 是 :“Effectiveness of behavioural management on migraine in adult patients 
visiting family practice clinics: a randomized controlled trial.” 
MetaMap 分 析 结 果 : 


A: Effectiveness of behavioural management ; B:‘on migraine in adult patients’ ; GC:visiting 
D:family practice clinics’; E:‘arandomized controlled triap 


A:(lexmatch(effectiveness),inputmatch(Effectiveness), tag(noun)); 
(lexmatch(behavioural),inputmatch(behavioural),tag(adi)); 
(lexmatch(management),inputmatch(management) tag(noun)) 


E:(lexmatch([al),inputmatch([a]),tag(det)): 
(lexmatch(randomized controlled trial),inputmatch(randomized,controlled ,trial) ,tag(noun)) 


图 3 MetaMap 语义 标 引 结果 示例 


(2) 知识 对 象 的 语义 识别 
语义 标 引 得 到 的 结果 , 通过 SemRep 工具 与 


UMLS 超级 叙 词 表 进 行 映射 ,并 识别 出 各 词 的 语义 类 
型 ,以 及 抽取 可 信赖 的 语义 关系 。 同 图 3 示例 , 经 
SemRep 对 上 述 标 题 分 析 后 可 得 到 10 个 实体 和 语义 关 
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系 , 具体 如 表 1 所 示 。 通 过 语义 识别 实现 了 文本 标 引 
内 容 与 MeSH 主题 词 表 16 个 一 级 大 类 、134 个 二 级 分 
类 的 重要 知识 对 象 的 识别 映射 。 


表 1 SemRep 知识 对 象 语义 识别 结果 
mR 源 a MeSH 词 MeSH 遍 语义 关系 中 ee 语 语 结 
Sp 
标记 标记 ”位置 术语 代码 标准 术语 缩写 原始 词汇 始 位 置 束 位 置 
SE 00000000 tx 1 entity C1280519 Effectiveness qlco Effectiveness 1000 1 13 
Behavi havi ] 
SE 00000000 x 1 entity C0150143 “eo topp Bonham 964 18 39 
mannagement managenment 
Ne 
SE 00000000 x 1 entity C0149931 ~ dsyn migraine 1000 44 51 
Disorders 
SE 00000000 tx 1 entity C0001675 Adult aggp adult 888 56 60 
SE 00000000 tx 1 entity C0030705 Patients podg patients 888 62 69 
famil ici 
SE 00000000 x 1 entity C0015607 0 由 ee id ie “901 81 95 
ie 
SE 00000000 tx 1 entity C0442592 Clinic hero,mnob clinics 901 97 103 
SE 00000000 tx 1 entity C1514720 Randomized ftcn randomized 851 108 117 
SE 00000000 tx 1 entity C0702113 Controlled ftcn controlled 851 119 128 
SE 00000000 tx 1 entity C0008976 Clinical Trials resa trial 851 130 134 
语义 关系 识别 结果 : 


SE|I00000000|ltx|llrelation|3|1|C0149931|Migraine Disorders|ldsynldsynlllmigrainel||1000|44|51| 
PREPIPROCESS OF]||53|54|3|1|C0030705|Patientslpodg,humnlhumnl||lpatients||||888|62|69 


语义 关系 计算 识别 
利用 MetaMap 工具 实现 语义 关系 的 计算 识别 , 将 
知识 对 象 关系 识别 为 30 个 规范 关系 ; 利用 ClausIE 工 
具 实 现 对 句法 树 关 系 的 识别 ; 将 MetaMap 和 ClauseIE 
两 种 工具 识别 的 语义 关系 数据 合并 整合 , 参照 
MetaMap 选取 的 30 个 规范 关系 对 试验 数据 规范 修正 。 
完成 的 数据 组 织 、 规 范 工作 包括 : 

(1) 实现 文献 内 部 知识 对 象 的 语义 关系 标 引 ， 通 
过 SemRep 和 MetaMap 工具 实现 科技 文献 中 30 种 语 
义 关系 的 抽取 , 挖掘 知识 对 象 之 间 潜 在 的 知识 关系 。 

(2) 实现 文献 内 容 的 句法 关系 标 引 , 通过 ClausIE 
工具 实现 科技 文献 中 句法 关系 (S-P-O) 抽 取 ， 发 现 知 识 
对 象 ( 关 键 词 、 术 语 ) 之 间 潜 在 关联 关系 。 

(3) 整合 语义 关系 和 人 句法 关系 标 引 ,对 1 116 篇 文 
献 摘要 进行 抽取 , 共 提 取 S-P-O 关系 50 204 条 , 包括 
语义 关系 41 590 条 , 以 及 语法 关系 8 614 条 。 
4.3 ”关键 问题 解决 方案 

(1) 标 引 内 容 与 MeSH 词 表 映射 

SemRep 处 理 后 的 结果 如 表 1 所 示 , 以 第 一 行 数 
据 为 例 , 红色 字段 (例子 中 的 qlco) 为 134 个 二 级 分 类 的 


4.2 


语义 关系 缩写 , 本文 完成 了 MeSH 词 表 对 应 的 16 个 一 
级 大 类 、134 个 二 级 分 类 的 英文 全 称 、 英 文 缩写 及 中 
文 名 称 收集 整理 。 通 过 红色 字段 进行 关联 ， 建立 起 文 
本 识别 术语 与 MeSH 词 表 映 射 关系 ,从 而 解决 了 SemRep 
处 理 后 的 结果 与 MeSH 主题 词 表 对 应 关系 问题 。 

(2) ClausIE 抽取 出 的 主语 (S)、 谓 词 (P) 与 UMLS 
超级 词 表 的 对 应 

ClausIE 按照 句法 关系 抽取 三 元 组 与 SemRep 抽取 
的 实体 不 能 完全 匹配 ; 同时 SemRep 只 能 抽取 语义 动 
词 ， 其 他 动词 都 被 忽略 掉 。 对 于 前 一 种 情况 通过 模糊 
匹配 的 方式 保证 实体 的 对 应 ; 对 于 第 二 种 情况 , 使 用 
从 MetaMap 中 提取 出 动词 , 然后 进行 匹配 的 方法 , 保 
障 试验 数据 的 规范 性 和 一 致 性 。 


语义 索引 体系 构建 


语义 索引 设计 目标 是 揭示 知识 对 象 和 对 象 间 多 种 
语义 关系 , 改变 当前 单一 维度 索引 的 方式 , 使 用 多 村 
索引 树 整 合 协同 工作 ， 多 维度 呈现 语义 内 容 。 如 图 4 
所 示 , 语义 索引 以 知识 对 象 为 核心 ,遵循 用 户 使 用 流 
程 ， 从 检索 关键 词 出 发 ， 通 过 知识 对 象 索引 对 输入 关 
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键 词 进 行 语义 识别 和 语义 消 歧 ; 然后 通过 知识 对 象 关 
系 索 引 , 遍历 知识 网 络 ， 导 航 、 筛 选 所 需 关 联 知识 ; 通 


知识 对 象 索引 


好 
1 
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过 桥接 索引 确定 知识 对 象 所 在 的 句子 、 段 落 ; 最 后 通过 
文献 索引 查询 、 展 示 包 含 相关 知识 内 容 的 文献 信息 。 
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图 4 


5.1 语义 索引 的 功能 与 组 织 结构 

基于 上 述 4 个 步骤 , 将 索引 分 为 4 个 功能 部 分 : 

(1) 知识 对 象 索引 

知识 对 象 索 引 : 将 用 户 检索 输入 的 关键 词 转换 为 相 
关 知 识 对 象 ， 实 现 语义 检索 转变 。 检 索 并 展示 知识 对 象 的 各 
项 属性 , 发 现 语义 冲突 的 关键 词 ， 实现 语义 消 歧 功能 。 

@) 依 存 关 系 索 引 : 索引 知识 对 象 存在 的 位 置 (如 文章 具 
体 句 子 )， 用 于 快速 查询 定位 包含 该 知识 点 的 文献 。 

(2) 知识 关系 索引 

(GD 语义 关系 索引 : 索引 文本 中 出 现 的 知识 对 象 间 的 语义 关 
系 (上 述 语义 计算 得 到 的 语义 关系 , 利用 STKOS 知识 组 织 系统 
规范 语义 关系 PE9)， 实 现 语 义 关 系 的 检索 和 分 析 展 示 功 能 。 

@) 语 法 关系 索引 : 索引 文本 中 出 现 的 知识 对 象 间 的 语 
法 关系 (语法 关系 是 基于 NLPP5 名 法 分 析 得 到 句法 关联 关 
系 )， 用 于 区 别 语义 和 语法 关系 的 检索 和 分 析 展 示 。 

(3) 共 现 统计 索引 

个 对象- 共 现 关系 索引 : 实现 知识 对 象 和 存在 同一 文献 
的 索引 记录 ， 用 于 分 析 和 揭示 语义 知识 对 象 的 共 现 关系 。 

@) 对 象 - 共 段 关系 索引 : 实现 知识 对 象 和 存在 同一 段落 
的 索引 记录 ， 用 于 分 析 和 揭示 语义 知识 对 象 的 共 段 落 关系 。 

@@ 对 象 - 共 句 关系 索引 : 实现 知识 对 象 和 存在 同一 句子 
的 索引 记录 ， 用 于 分 析 和 揭示 语义 知识 对 象 的 共和 句子 关系 。 

(4) 文献 索引 

@ 元 数据 索引 : 索引 文献 的 元 数据 描述 信息 ， 用 于 文献 
描述 信息 的 展示 。 


数据 分 析 与 知识 发 现 


语义 索引 架构 设计 图 


@@ 片 段 句 子 索 引 : 对 文章 的 文本 内 容 和 句子 索引 ， 用 于 
展示 文献 内 容 和 相关 知识 对 象 的 高 亮 显 示 等 功能 。 

本 文 试验 根据 选取 的 数据 集 ， 共 实现 索引 文献 
1 116 篇 , 段落 4023 个 , 句子 7684 个 , 索引 知识 对 象 
4935 条 。 索 引 知 识 关系 50 204 条 。 
5.2 ”关键 问题 及 解决 方案 

(1) 输入 关键 词 与 知识 对 象 的 映射 

试验 中 可 能 出 现 用户 输 入 关键 词语 与 索引 中 知识 
对 象 不 能 完全 匹配 问题 , 造成 无 法 映射 到 准确 的 知识 
对 象 的 问题 ; 输入 的 一 个 关键 词 可 能 包含 多 种 含义 ， 
发 后 语义 识别 歧义 , 无 法 明确 映射 到 具体 知识 对 象 。 

对 第 一 个 问题 , 采用 索引 模糊 匹配 方法 , 选取 匹 
配 分 值 最 高 的 知识 对 象 ， 并列 出 匹配 的 前 5 条 列表 通 
知 用 户 , 以 便 再 次 人 工 修 正 语义 识别 ; 对 第 二 个 问题 ， 
则 提示 用 户 存在 不 同 含义 的 知识 对 象 , 由 用 户 选 择 修 
正 实 现 语义 消 玻 。 

(2) 知识 对 象 之 间 关 联 关系 的 统计 揭示 

知识 对 象 之 间 的 关系 都 以 三 元 组 S-P-O 的 方式 在 
Apache Solr 中 建立 索引 ， 如 何 使 用 Solr 检索 分 面 机 制 
统计 揭示 知识 对 象 之 间 的 关联 关系 是 一 个 难题 。 本 文 
采用 在 三 元 组 索引 中 加 入 宛 余 字 段 的 方法 ， 索 引 结构 
如 表 2 所 示 。 当 检索 主语 (S) 时 对 谓语 宾语 (P+O) 组 合 
字段 分 面 , 检索 宾语 (0) 时 对 主语 谓语 (S+P) 组 合 字段 
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表 2 三 元 组 索引 字段 描述 表 


索引 字段 字段 描述 字段 功能 
S 三 元 组 主语 检索 查询 
P 三 元 组 谓语 检索 查询 
O 三 元 组 宾语 检索 查询 
S+P 主语 与 谓词 拼接 组 合 分 面 揭示 
P+O 谓词 与 宾语 拼接 组 合 分 面 揭示 


分 面 。 利 用 Solr 的 分 面 和 频次 统计 功能 , 在 检索 任意 


文献 描述 层 


文本 片段 层 


知识 关系 层 “ 


知识 对 象 层 
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知识 对 象 时 , 通过 对 (P+O) 和 (S+P) 分 面 ,， 即 可 在 检索 
结果 集中 揭示 出 现 频 次 TopN 的 关联 知识 对 象 , 帮助 
发 现 潜在 知识 。 


6 语义 丰富 化 示范 平台 实现 


6.1 试验 系统 的 数据 组 织 
为 实现 语义 丰富 化 检索 示范 平台 , 系统 将 数据 组 
织 为 4 个 维度 ， 如 图 5 所 示 。 


浊 各 艺 光 


图 5 语义 丰富 化 检索 的 数据 组 织 结构 


第 一 维度 是 文献 描述 层 ， 对 文章 的 标题 、 作 者 、 
摘要 、 发 表 时 间 等 基本 元 数据 表达 揭示 ; 第 二 维度 是 
文本 片段 层 , 将 文本 摘要 切 分 成 段落 和 句子 , 对 句子 
和 段落 关联 揭示 ; 第 三 维度 是 知识 关系 层 (图 5 中 将 知 
识 对 象 及 它们 之 间 的 关系 统称 为 事实 )， 用 于 对 知识 关 
联 关系 表达 揭示 ; 第 四 维度 是 知识 对 象 层 , 对 文本 中 
识别 出 来 的 知识 对 象 表达 揭示 。 

从 下 而 上 的 视角 看 , 第 三 、 第 四 维度 将 科技 文献 
拆 分 为 知识 对 象 和 知识 关联 关系 , 形成 语义 丰富 化 的 
科技 文献 知识 网 络 , 用 于 语义 化 的 查询 与 关联 导航 。 
第 一 、 第 二 维度 结合 文献 的 基本 信息 和 文本 片段 , 将 
知识 与 文献 有 机 关联 组 织 , 用 于 知识 呈现 ,辅助 文献 
检索 阅读 。 

6.2 示范 平台 功能 实现 

语义 丰富 化 示范 平台 围绕 用 户 的 知识 化 应 用 需 
求 , 用户 检索 流程 设计 为 : 输入 识别 诠释 、 知 识 关 系 展 
示 、 潜 在 知识 关联 发 现 、 语 义 辅助 浏览 。 语 义 丰 富 化 
示范 平台 的 研发 实现 了 这 4 个 功能 。 


(1) 识别 诠释 用 户 输入 

示范 系统 第 一 步 根 据 用 户 输入 关键 词 识别 出 相应 
的 知识 对 象 , 诠释 并 呈现 具体 知识 内 容 。 如 图 6 所 示 ， 
输入 检索 关键 词 “Headache”， 系 统 识别 “Headache” 相 
关 的 知识 对 象 , 它 是 属于 “体征 或 症状 ”的 类 型 范畴 。 
同时 给 出 关于 Headache 的 百科 词 条 解释 和 相关 的 图 
片 , 并列 出 了 “Headache” 相 关 的 知识 对 象 以 便 用 户 选 
择 修正 。 


Headache Q 搜索 


hin 
Headache (体征 或 症状) 
Headache Disorders 【疾病 或 症 杖 ) 
Primary Exertional Headache (疾病 或 症 
状 ) 

Headache Disorders, Secondary (疾病 


of 
Brain tissue itvelf is not sensitive to pain aa 
itlacks painr, 


ms 
或 症状 ) 更 多 >> 


Primary Cough Headache (疾病 或 症 
并 ) 

| Headache Disorders, Primary (疾病 或 症 
状 ) 

| Hemicrania (体征 或 症 控 ) 

| Neuralgia (体征 或 症 杖 ) 


图 6 语义 识别 功能 展示 
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较 之 传统 文献 检索 , 该 功能 可 以 规范 用 户 输入 ， 
将 简单 的 关键 词 匹配 检索 转变 为 具有 语义 特征 的 知识 
对 象 检索 ,使 得 语义 丰富 化 检索 更 加 精准 。 同 时 语义 识 
别 功能 可 以 标示 知识 对 象 的 所 属 类 型 ， 辅 助 用 户 进行 
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同样 , S-P-O 语义 关系 和 句法 关系 分 面 揭示 ,以 谓 
词 + 宾 语 ( 知 识 对 象 ) 的 分 面 统 计 方式 揭示 潜在 语义 、 名 
法 关系 。 如 图 8 下 半 部 分 所 示 : 检索 Headache, 通过 
语法 关系 揭示 发 现 儿童 治疗 (PROCESS_OF Child)、 治 


语义 消 歧 。 避 人 免 传 统 关键 词 检 索 经 常 出 现 的 语义 偏差 。 
(2) 知识 关系 图 形 展示 
知识 关系 揭示 功能 以 检索 输入 的 知识 对 象 为 中 
心 , 在 检索 结果 中 以 图 的 方式 揭示 了 与 其 相关 的 知识 
对 象 、 知 识 关 系 、 知 识 所 在 的 文章 片段 , 如 网 7 所 示 。 


leadache Disorders， Atypical, Unclassified, lary Cough Headache (疾病 或 症 
分 去 外 3 二 
图 7 检索 结果 知识 关系 展示 


这 些 知 识 及 关联 关系 以 图 形 化 的 点 和 边 的 方式 
展示 , 使 用 不 同 颜色 的 点 代表 不 同类 型 的 知识 对 象 ， 
不 同形 状 表示 知识 之 间 的 不 同类 型 的 关系 。 通 过 “点 击 - 
关联 -展示 ”的 导航 操作 方式 , 用 户 可 以 选择 查看 任意 
一 个 图 上 出 现 的 知识 点 ,并 展示 周边 知识 脉络 , 深入 
发 现 自 己 需 要 的 知识 。 

示范 系统 能 够 展示 检索 结果 中 的 知识 关系 ,对 科 
研 人 员 判 断 该 内 容 是 否 满足 其 检索 需要 有 很 大 的 帮 
助 。 本 文 认为 以 发 现 知识 为 先导 , 通过 知识 对 象 关联 
查看 文献 企 文 的 检索 方式 代 奉 传统 关键 词 检索 ,对 提 
升 语义 检索 的 精准 性 更 有 帮助 。 

(3) 潜在 知识 关系 发 现 

潜在 知识 关系 发 现 功 能 以 检索 输入 的 知识 对 象 为 
中 心 , 在 检索 结果 文献 中 利用 “ 共 现 关系 索引 ”统计 出 
共 现 、 共 段落 和 共 人 句子 的 知识 对 象 。 并 实现 关联 知识 
对 象 的 分 面 浏 览 , 便于 科研 用 户 从 潜在 的 关联 知识 对 
象 中 发 现 有 价值 的 内 容 , 并 提供 导航 功能 饰 选 出 这 些 科 
技 文献 。 如 图 8 上 半 部 分 所 示 : 查询 Headache 时 共 现 关 
系 、 共 句子 关系 、 共 段落 关系 出 现 Migraine Disorders、 
Clinical Research 等 ,对 科研 人 员 起 到 启示 的 作用 。 


用 允 ”数据 分 析 与 知识 发 现 


疗 青春 期 PROCESS_OF Adolescent) 等 深层 专业 领域 
知识 的 文章 , 通过 句法 关系 揭示 出 相关 治疗 药物 
(followed Eplepsy) 的 研究 论文 等 , 给 科研 人 员 提 供 明 
确 的 知识 关系 局 发 和 导向 。 
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图 8 语义 关系 导航 展示 图 


示范 系统 分 面 导 航 功能 展现 的 知识 共 现 关系 及 语 
义 、 语 法 关系 ,是 根据 已 有 文献 数据 统计 方式 揭示 出 
来 的 有 助 于 发 现 文献 内 隐 仿 的 知识 关联 信息 ， 有 助 
于 科研 人 员 发 现 新 的 潜在 的 知识 关系 , 探索 学 科 交 叉 
领域 的 新 研究 点 ,， 扩展 科研 人 员 的 研究 思路 , 辅助 科 
技 创新 。 

(4) 单 篇 文献 语义 化 辅助 阅读 

如 图 9 所 示 , 语义 化 辅助 阅读 功能 在 查看 单 篇 文 
献 时 ， 可 以 将 知识 对 象 和 知识 之 间 关 系 高 亮 展 示 。 图 9 
左 侧 的 树 形 列表 展示 的 是 该 篇 文献 中 的 语义 知识 对 
象 , 将 这 些 语义 知识 对 象 按照 类 型 分 为 不 同 的 组 , 用 
不 同 颜色 标示 。 中 间 主 体 部 分 是 文献 的 文本 信息 ， 当 
选中 某 个 类 型 的 知识 对 象 后 , 在 中 间 的 文本 信息 用 该 
对 象 的 颜色 高 亮 显 示 出 来 , 标示 在 文献 中 出 现 的 位 置 ， 
方便 用 户 查阅 。 右 侧 展 示 该 文献 中 计算 得 到 的 语义 关 
系 和 人 句法 关系 , 同样 可 以 查看 知识 关系 在 文中 的 具体 
句子 、 段 落 的 位 置 。 

示范 系统 所 提供 的 语义 化 辅助 阅读 方式 ,可 以 帮 
助 用 户 直接 查看 知识 点 ,直接 定位 知识 所 在 的 具体 位 
置 , 引导 读者 优先 阅读 相关 知识 密集 的 段落 和 句子 ， 
从 而 提高 对 文献 全 文 内 容 的 阅读 效率 。 
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内 容 标注 
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图 9 单 篇 文献 的 语义 化 辅助 阅读 展示 


7 结 语 


本 文 提 出 语义 丰富 化 框架 的 设计 模型 , 通过 构建 
示范 系统 进一步 证 明 语义 丰富 化 框架 的 优势 和 可 行 
性 。 从 以 下 4 个 方面 提升 了 文献 检索 效果 。 

(1) 语义 识别 技术 将 关键 词 匹配 检索 转变 为 具有 
语义 特征 的 知识 对 象 检索 , 提升 检索 精准 度 。 辅 助 用 
户 进 行 语义 消 上 下 ,避免 关键 词 检索 出 现 的 语义 偏差 。 

(2) 使 用 相关 知识 对 象 、 知 识 关 系 精准 的 语义 表 
达 代 蔡 列 表 式 检索 结果 呈现 ， 有 助 于 科研 人 员 判 断 检 
索 内 容 是 否 满足 其 需 

(3) 语义 关联 导航 功能 有 助 于 发 现 隐 含 的 知识 关 
联 信息 , 辅助 科研 人 员 发 现 新 知识 关联 ,探索 学 科 交 
叉 领 域 , 扩展 研究 思路 。 

(4) 语义 化 的 辅助 阅读 , 高 亮 显示 知识 点 的 位 置 ， 
引导 读者 优先 阅读 相关 知识 点 密集 的 段落 ， 提 高 文献 
内 容 的 阅读 效率 。 

在 本 文 试验 过 程 中 , 也 存在 一 些 不 足 之 处 , 希望 
在 未 来 的 工作 得 以 克服 和 改进 。 

(1) 句法 分 析 得 到 的 S-P-O 三 元 组 关系 未 能 完全 
映射 到 MeteMap 提供 的 30 种 规范 谓词 。 未 规范 的 谓 
词 对 关联 导航 发 现 功 能 造成 一 定 程度 的 影响 , 后续 
考虑 构建 谓词 规范 词 表 , 修改 谓词 语义 识别 算法 对 
此 改进 。 

(2) 知识 关系 揭示 频繁 与 宽泛 的 上 位 词 关联 宽 


泛 上 位 词 不 利于 帮助 专业 领域 的 科研 。 未 来 尝试 通过 
TF-IDF 等 加 权 计 算 方法 过 滤 频 繁 而 宽泛 的 上 位 词 ， 改 
进 知识 关联 导航 的 效果 。 

(3) 本 文 试验 数据 集合 较 少 , 缺少 大 数据 集 上 的 
应 用 测试 。 同 时 缺少 对 医学 领域 以 外 的 应 用 试验 以 对 
模型 进行 对 比 评估 。 
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Building Semantic Enrichment Framework for Scientific Literature 
Retrieval System 


Xie Jing Wang Jingdong Wu Zhenxin Zhang Zhixiong Wang Ying YeZhifei 
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
Abstract: [Objective] This paper aims to improve the scientific literature retrieval system with the help of semantic 
recognition and knowledge relationship computing. [Methods] First, we identified and extracted semantic objects from 
the scientific literature. Then, we calculated and established semantic relations among the objects using data-mining 
tools. Finally, we built semantic multidimensional index for these objects and relations, and then designed a new data 
organization model. [Results| The new system effectively identified the semantic information and improved the user 
experience. [Limitations] We need to expand the dataset used in this study and evaluate the new System in other areas. 
[Conclusions] The proposed system could retrieve more knowledge and indicate some future directions. 
Keywords: Semantic Enrichment Semantic Knowledge Organization Semantic Relation Presentation 
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Springer 和 Federica Weblearning 推出 MOOC 和 教科 书 项 目 


2017 年 2 月 底 , Springer 与 Federica Weblearning 达成 合作 , Federica Weblearning 是 一 个 致力 于 创新 、 实 验 和 传播 多 媒体 
远程 学 习 的 学 术 平 台 。 这 一 合作 为 作者 和 讲师 在 特定 主题 上 同时 编写 教科 书 和 MOOC(Massive Open Online Course) 提 供 了 多 
种 选择 。 这 一 举措 使 Springer 能 够 进一步 加 强 其 在 教科 书 出 版 方面 的 专业 知识 ， 并 为 其 作者 和 客户 提供 增强 的 教学 经 验 。 

MOOC 和 教科 书 项 目 邀 请 了 世界 各 地 的 作者 从 一 开始 就 做 好 教科 书 与 附带 MOOC 一 起 编写 的 计划 。 此 外 ,目前 在 
Federica Weblearning 平台 上 运行 MOOC 的 讲师 也 有 机 会 通过 Springer 出 版 相应 的 教科 书 。 世 界 各 地 研究 机 构 的 作者 和 讲师 
都 可 以 参加 这 一 活动 。 

Federica Weblearning 平台 上 的 课程 广泛 覆盖 了 大 学 的 学 科 领 域 , 包括 数学 和 统计 学 、 计 算 机 科学 、 工 程 与 物理 科学 、 生 
物 医 学 和 生命 科学 、 商 业 与 经 济 学 、 人 文 社会 科学 等 。Federica Weblearning 主管 Mauro Calise 表示 : “Federica Weblearning 和 
Springer 在 这 次 新 的 合作 项 目 中 联手 展示 了 全 球 最 好 的 国际 性 研究 ,该 项 目 为 基于 一 本 教科 书 创建 MOOC, 或 基于 在 线 课程 
创建 一 本 教科 书 提供 了 独特 的 机 会 , 将 科学 论文 的 高 质量 与 在 线 教育 产品 的 交流 能 力 相 结合 。” 

Springer 的 MOOCs 计划 执行 总 编辑 兼 项 目 经 理 Francesca Bonadei 表示 :“Federica Weblearning 平台 涵盖 的 学 科 范 围 十 分 
之 广 , 与 Springer 的 广泛 组 合 完美 匹配 。 我 们 计划 首先 推出 基于 畅销 作家 Bruno Siciliano 撰写 的 图 书 而 制作 的 新 MOOC, 同 
时 ,我 们 期 待 与 Federica Weblearning 的 讲师 一 起 帮助 他 们 出 版 课程 所 附带 的 教科 书 。” 


(编译 自 : https:/www.springer.com/gp/about-springer/media/press-releases/corporate/moocs-and-books-initiative-launched-by- 


springer-and-federica-weblearning/12241436) 
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